#Gemini Flash
【MWC 2026】全網最全:AI 徹底變天!中國軍團殺瘋全球!OpenClaw 屠榜封神!
最硬核現場!MWC 被中國 AI 霸屏,機器人手機、人形機器人炸場2026 世界移動通訊大會(MWC)在巴塞隆納啟幕,恰逢落地 20 周年,以智能新紀元為主題,匯聚全球 2900 余家企業。展會聚焦 AI 與通訊深度融合,覆蓋 5G-A、6G、算力網路、衛星通訊、具身智能等前沿方向,是全球科技與產業的風向標。本屆展會看點密集、技術密集,深科技(deeptek)為你逐一拆解核心趨勢與重磅成果。01 開場炸:MWC 變中國主場!AI 從 “陪聊” 直接跳去 “幹活”2026 開年第一炸,不在矽谷,不在紐約,直接砸在西班牙巴塞隆納 ——MWC 2026 徹底被中國科技軍團包場。350 家中國企業擠爆展館,中文比西班牙語還高頻,老外排隊三小時就為摸一下中國 AI 手機、中國機器人、中國大模型。行業共識一夜改寫:AI 不再是聊天耍帥的花瓶,而是能動手幹活的工具人。從語音對話到自主操作裝置、跨 APP 執行、長鏈推理、自動完成複雜任務,2026 就是 AI 從 “聽懂” 到 “動手” 的元年。中國廠商不玩虛的,直接把未來端到全球面前,這波出海不是參展,是降維碾壓。02 OpenClaw 封神!GitHub 史上最瘋項目,中國模型殺穿榜單本屆最大黑馬不是手機,不是晶片,是OpenClaw—— 一個能直接操控你電腦的 AI Agent 神器。全球開發者集體瘋狂,卡帕西盛讚 “科幻級爆發”,直接登頂 GitHub 史上最受歡迎開放原始碼專案。簡單說:你說一句話,它幫你點滑鼠、敲鍵盤、跑程式碼、做表格、干雜活,全自動不廢話。誰能喂飽 OpenClaw,誰就是下一代 AI 王者。結果呢?中國模型直接屠榜。03 階躍星辰殺瘋!Step 3.5 Flash 碾壓 GPT/Gemini,海外開發者跪服3 月 2 日當天,階躍星辰 Step 3.5 Flash 單日呼叫破 40B,OpenClaw 呼叫榜全球第二。干翻誰了?Kimi K2.5、Gemini 3 Flash、Claude Sonnet 4.5……全是國際頂流。海外開發者用腳投票:這才是 Agent 時代該有的模型。硬核邏輯不講虛:1960 億總參數,每次只啟動 110 億,速度狂飆 350token/s消費級 128GB 就能跑,MacBook 直接起飛推理強、成本低、長任務穩到離譜老外直呼:中國模型才是 OpenClaw 真命天子。04 徹底開源殺招!階躍星辰把家底全甩出來,行業看傻更炸的是:別家開源遮遮掩掩,階躍星辰直接Base 權重 + Midtrain 權重 + Steptron 框架一次性全開源。開發者要啥給啥,隨便二開、隨便微調、隨便造自己的 Agent。在全球大模型開源越來越保守的今天,這波操作等於把通往未來的鑰匙直接塞給全世界。Reddit、LocalLLaMA 直接炸版,CTO 深夜線上答疑,中國技術團隊第一次成為全球開發者的 “精神領袖”。一句話:不是讓開發者適配模型,是模型跪下來適配開發者。05 手機徹底變異!榮耀機器人手機火到西班牙國王親自打卡手機圈十年死水,今年直接物種大爆炸。榮耀甩出王炸:全球首款可量產機器人手機 ROBOT PHONE。攝影機自帶 “脖子”,四自由度雲台,會轉頭、會跟拍、會點頭、會隨音樂跳舞。西班牙國王駐足看呆,這那裡是手機,是裝在口袋裡的機器人。榮耀直接喊出:打破黑色方塊,給手機加大腦、加手腳。AI 手機的終點,不是更聰明的助手,是擁有身體的智能生命。06 豆包殺瘋!中興努比亞 AI 手機,一句話全自動跨 APP 幹活字節跳動豆包聯手努比亞,直接把AI 原生手機帶到 MWC。不用點、不用切、不用手動操作,喊一聲:幫我發朋友圈 + 配文幫我全平台比價下單幫我點外賣AI 自動跨 APP 跑完所有流程,你只負責張嘴和確認。蘋果 Apple Intelligence 還在畫餅,中國廠商已經把體驗做滿。老外上手直接震驚:這才是 2026 年的手機。07 具身智能狂歡!中國人形機器人佔領展館,會打架會幹活MWC 六號館直接變成中國機器人閱兵場。智元機器人:全系列人形 + 四足 + 靈巧手,迎賓、搬運、工業通吃宇樹科技:機器狗載人、人形機器人現場 “搏鬥”魔法原子:機器貓熊、全尺寸人形炸場中國具身智能不再是實驗室玩具,能跑、能扛、能合作、能落地。目標很明確:搶歐洲市場,做全球夥伴。這波不是秀肌肉,是把未來生產力直接擺上貨架。08 網路革命!華為 AI 原生網路 + 靈衢匯流排,硬剛流量海嘯GSMA 主席潑冷水:AI 流量海嘯要壓垮網路。華為直接正面硬剛:別加寬管道,給管道裝大腦。AI-Centric Network,讓網路自己懂你、自動調度、自動開綠色通道。更狠的是靈衢 UnifiedBus:萬卡協同像一顆大腦,打破輝達算力壟斷。Atlas 950 SuperPoD 海外首秀,訓練 + 推理全端通殺。6G 前夜提前開戰,U6GHz 頻段卡位,中國廠商直接定義下一代網路。09 三大營運商亮劍!6G + 智算 + 全球生態,中國方案統治未來中國移動:5G-A 超級上行 + 百 T 級智算路由,算力效率拉滿 98%中國聯通:九大行業一站式出海方案,歐洲、東南亞遍地開花中國電信:聯手智元發佈6G + 四足機器人,把邊界從 3% 陸地擴到全域不再是管道商,是智能時代的架構師。雲 - 網 - 邊 - 端全鏈路打通,中國算力網直接走向世界。10 終局炸:2026 AI 分水嶺!中國從陪跑變領跑,全行業顫抖2025 是國產模型爆發年,2026 是中國 AI 統治年。大模型:階躍星辰在 OpenClaw 屠榜,中國開源征服全球開發者終端:機器人手機、AI 眼鏡、模組化硬體全面變異機器人:具身智能叢集出海,硬體 + 演算法雙殺網路:AI 原生 + 6G 卡位,重新定義通訊底層行業鐵律變了:不再比誰參數大,比誰能落地、能幹活、能普惠、能走進普通人生活。中國廠商走了一條最難、但最正確的路:用應用牽引技術,用落地定義未來。MWC 2026 已經說明一切:AI 的下一個時代,主場在中國。11、MWC 2026 核心公司總結一、AI 大模型 & 智能體(Agent)階躍星辰Step 3.5 Flash 開源模型在 OpenClaw 呼叫榜全球第二,單日呼叫超 40B架構:稀疏 MoE,總參數量 1960 億,每 token 啟動約 110 億速度:單請求程式碼類最高 350 token/s開源:Base 權重、Midtrain 權重、Steptron 訓練框架全開源定位:主打智能密度、推理速度、Agent 能力,面向 “讓 AI 幹活”字節跳動・豆包 AI與中興 / 努比亞合作推出豆包 AI 手機(海外首秀)功能:一句話語音指令,自動跨 APP 完成點外賣、發社交平台等定位:系統級 AI 助手,從 “陪聊” 走向自動執行阿里・千問發佈千問 AI 眼鏡,售價 1997 元,即將開售支援即時翻譯、語音助手、地圖、支付、識圖等後續將推出AI 指環、AI 耳機,打造軟硬一體 AI 入口小米・MiMo自研大模型躋身全球開源第一梯隊支撐人車家全生態:手機、汽車、智能家居全域協同推出全屋智能系統 Miloco:可自動感知、決策、調度裝置(如自動叫掃地機器人)二、手機終端創新榮耀全球首款機器人手機 Robot Phone:4DoF 雲台攝影機,可自動跟拍、點頭、律動首款消費級人形機器人,可跳舞、後空翻折疊屏 Magic V6 旗艦發佈vivoX300 Ultra 海外首秀全球首發 400mm 蔡司增距鏡,專業影像向 “生產工具” 升級中興 / 努比亞努比亞 M153 搭載豆包 AI 手機助手發佈 AI 情感寵物 iMoochi,主打治癒陪伴傳音(Tecno)4.9mm 超薄模組化磁吸手機,可外接鏡頭、電池、手把等模組聯想模組化 AI PC、AI Workmate 陪伴機器人捲軸屏筆記本、折疊掌機小米徠卡手機 LeitzphoneVision Gran Turismo 概念超跑三、人形機器人 & 具身智能智元機器人(AGIBOT)A2、X2、G2、D1 全系列機器人面向零售、製造、物流,主打 “能幹活”展示 6G + 四足機器人 方案宇樹科技G1 人形機器人,高動態對抗、抗摔、運動控制強魔法原子GEN1 全尺寸人形、MagicBot、MagicDog 四足機器人四、通訊 & 網路 & 6G華為AI-Centric Network(以 AI 為中心的網路)發佈 U6GHz 全場景產品,5G-A 向 6G 平滑過渡超節點 Atlas 950 SuperPoD,支援 8192 卡 高速互聯靈衢(UnifiedBus)高速互聯匯流排A2A-T 智能體互動協議開源中興通訊AIR MAX 面向 AI 時代的網路架構全球首個 U6G 6G GigaMIMO 原型首發 Wi-Fi 8 Mesh 方案Co-Sight 工業級智能體工廠高通成立 6G 聯盟,路線圖:2028 預商用,2029 商用X105 5G 數據機,支援 6G 標準可穿戴晶片支援本地運行 20 億參數 模型愛立信6G 原型、MRSS 5G/6G 頻譜共享AI Native Network、可程式設計網路諾基亞AI-RAN 與輝達合作自智網路、雲化基站三大營運商中國移動:5G-A 超級上行、百 T 級智算互聯裝置中國電信:量子通訊、衛星通訊、低空經濟中國聯通:算網、低空智聯、空天地一體化五、晶片 & 算力 & 儲存紫光展銳:eSIM + 基帶方案江波龍:AI 眼鏡、端側 AI 儲存聯發科:6G 互通方案、Wi-Fi 8、AI 眼鏡平台AMD:銳龍 AI PRO 400 系列六、深圳企業軍團(70+ 家)榮耀、華為、中興、傳音、TCL雷鳥創新:AR 眼鏡與德國電信合作領益智造:機器人核心部件(減速器、絲槓)時空壺:AI 同傳翻譯耳機七、本屆核心趨勢總結AI 從 “聊天” 轉向 “幹活”:Agent、具身智能、自動執行成主流終端形態革命:機器人手機、模組化、雲台手機、AI 眼鏡爆發網路 AI 原生化:從 5G-A 走向 6G,網路本身變智能中國廠商全球領跑:350 家參展,AI + 硬體 + 通訊全面出海開源大模型崛起:中國模型成為全球開發者首選 (深科技)
Nano Banana 2,洩露!
Nano Banana 2洩露證據被扒:4K生圖,速度離譜。智東西2月25日報導,過去48小時,Nano Banana 2成為AI開發者圈的熱議話題。在海外社交平台X上,關於Google這款最新圖片生成模型(又名Gemini 3.1 Flash Image預覽版)將發佈的帖子層出不窮,4K圖片四處流傳,各種猜測也甚囂塵上。▲社交平台X上關於Nano Banana 2的猜測擷取眾所周知,基於Gemini 3 Pro的Nano Banana Pro在AI圖片生成領域接近“封神”的存在,而Nano Banana(Gemini 2.5 Flash Image的暱稱)去年發佈時也引起業界沸騰。如果Nano Banana 2真的發佈,其相對於Nano Banana Pro在性能和價格上會有多大程度的升級?引起產業高度關注。根據X平台多方自媒體互證,Nano Banana 2為Gemini 3.1 Flash Image預覽版的暱稱,具備4K圖像生成能力、更快速度、價格比Nano Banana Pro更低等特徵。此前2月20日,Google發佈其新一代旗艦模型Gemini 3.1 Pro,通常情況下,Gemini 3.1 Flash及圖像功能有望在近期內發佈。TestingCatalog News是AI領域關注者較多的自媒體,其在今日的推文中稱,Google正在為即將發佈的Gemini 3.1 Flash鏡像預覽版做準備。基於Gemini 3 Flash的Nano Banana 2(Flash)模型已於去年12月進行了測試,但隨後推遲發佈了,或許很快將發佈。他還隨之發佈了一張疑似Nano Banana 2生成的圖片。▲社交平台X上的自媒體發文他引用了另一位X平台網友MarsEverythingTech在2月24日發佈的推文,推文中Nano Banana 2(Gemini 3.1 Flash Image預覽版)的早期測試4K生成圖隨之流出。如下面圖片所示,四張圖片在細節生成和文字渲染等方面看起來表現力不錯。▲社交平台X上的網友發文隨後,一位名為Legit的關注度頗高的開發者發佈推文稱,一個新的匿名模型anon-bob-2已經上線,它很可能是競技場Arena.ai(原LMArena)上的新款Nano Banana Flash模型,由Gemini 3.1 Flash Image驅動。不過智東西登陸Arena.ai後未發現這一模型,可能是測試版已下線。▲社交平台X上的網友發文他還提供了在Google雲的企業級AI平台Vertex AI網站上,發現Gemini 3.1 Flash Image鏡像的證據。如下圖所示,其輸入Gemini-3後下拉頁面出現了Gemini 3.1 Flash Image模型的名字。▲社交平台X上的網友發文另一位X平台使用者稱:“Nano Banana 2(Gemini 3.1 Flash Image預覽版)已以匿名使用者anon-bob-2的身份活躍於競技場Arena.ai的圖像對戰模式,社區目前取得的成果之一:它很棒!”▲社交平台X上的網友發文如果洩露資訊屬實,Nano Banana 2或許會結合前兩代產品的優勢: Flash系列的速度和價格優勢,以及接近或優於 Nano Banana Pro的視覺質量。比如,其生成圖像或許會具備原生4K解析度、更出色的多角色場景處理能力,以及在人體結構、反射、光照等方面更一致的細節表現。據測試人員稱,所有這些都實現了閃電般的生成速度,遠超以速度慢著稱的Pro版。據Stable Diffusion部落格推測,原定於2025年12月進行的(Nano Banana 2)內部測試因質量校準問題而被推遲。現在模型已準備就緒,圖像功能可能就在未來幾天或幾周內發佈。截至發稿,Google尚未就此發佈任何官方公告。結語:頭部玩家密集發新AI圖像生成競賽或升級如果洩露的資訊屬實,Nano Banana 2或許會是一款超高速、支援4K圖像生成、價格比Nano Banana Pro版更低,畫質卻與之不相上下的模型,有望引起產業的新熱潮。但Nano Banana 2未必能建立起絕對的優勢。近一段時間,字節Seedream 5.0、阿里Qwen-Image-2.0、智譜GLM-Image等國產模型相繼發佈,在指令遵循、影像品質、文字渲染等發麵發力,或許都能夠與Google新圖像模型掰腕子,AI圖像生成競賽將再度升級。 (智東西)
Gemini負責人:Pro的主要作用是蒸餾Flash!最大突破空間在後訓練;Noam、Jeff Dean:持續學習是重要改進方向
2025年底,最令人印象深刻的AI圈大事莫過於Gemini 3 Flash的發佈。它主打輕量級、速度快,不僅智能全面超越Gemini 2.5 Pro,而且部分性能也反超了3 Pro和GPT-5.2(比如程式設計能力和多模態推理),令人非常驚豔。就在前天,Gemini的三位共同負責人Oriol Vinyals、Jeff Dean、Noam Shazeer和Google AIStudio 的產品負責人 Logan Kilpatrick 罕見同台,進行了一次對話。這三位嘉賓都相當重量級:Oriol Vinyals是Google DeepMind 研究副總裁兼深度學習負責人;“傳奇院士”Jeff Dean 大家都認識,他也是Google首席科學家;Noam Shazeer則更不用說了——Transformer的論文作者之一,也是Gemini 的聯合負責人。在這場談話中,Gemini的三位共同負責人表示:現在新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。Oriol Vinyals甚至坦言:Pro的主要作用,就是拿來蒸餾Flash!他認為,那怕犧牲一點智能,更快更便宜的模型對使用者來說也非常重要。所以對於Flash這樣小而強的模型,他們一定會持續增加投入。Logan Kilpatrick也透露,他們在GoogleAI Studio 裡針對 vibe coding 這個用例,做了一些 Flash 模型和 Pro 模型的對比測試。結果發現:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。可見 Flash 有多麼受歡迎。此外,他們還談論了Gemini這一年的整體進展、內部的訓練細節、對Pro和Flash版本的取捨以及模型後續演進的重要方向等等。Jeff Dean 透露,Gemini目前用的基礎架構是他2018年提出的Pathway架構,主要有三個目標:一個模型可以泛化到數百萬個任務,強多模態,並且採用稀疏啟動。現在Gemini已經基本實現了這三個目標。而Jeff Dean也透露,關於模型能力的演進方向,Google內部已經有了Gemini的下一個“五年計畫”。Gemini 3剛發佈時,Oriol 曾在X上表示,Gemini 3的核心秘訣是提升預訓練+後訓練,尤其在後訓練上還是一片未被開墾的“綠地”,有很大的提升空間。而在這次談話中,他也再次強調,當前階段最大的突破空間很可能在後訓練。Jeff Dean則認為,目前在一些Benchmark上,模型能力基本已經見頂,尤其是程式碼、推理和數學領域;但在“幫我規劃一次舊金山旅行”這種開放式任務上,模型能力還有較大的提升空間。另外,Noam 和 Jeff 也強調,大模型的規模依然重要,但它不再是決定一切的唯一變數。相比之下,模型的持續學習能力才是後續的重要改進方向。小編翻譯並整理了整期對話實錄,有不少有價值的資訊,enjoy!Gemini的起源:Google Brain與Deepmind的融合Logan Kilpatrick已經有不少人試用了 Gemini 3 Flash,並對模型進行了測試,整體反饋非常積極,勢頭非常強勁。此前我們發佈了 Gemini 3 Pro,現在整體都在加速推進。Jeff、Oriol、Noam,你們三位是 Gemini 的聯合技術負責人,整體上在引領 Gemini 的方向。也許我們可以從 Jeff 開始,請你從自己的視角談一談:在 Gemini 3 Flash 和 3 Pro 發佈的這個時間點,我們正處在一個怎樣的階段?以及最近這段時間,我們是如何走到今天這一步的?Jeff Dean當然。我們對 Gemini 3 系列模型感到非常興奮,包括幾周前發佈的 Pro,以及昨天發佈的 Flash。正如你所說,我、Oriol 和 Noam 是 Gemini 項目的三位聯合技術負責人。我們已經合作很多年了,一起工作一直非常愉快。從 Gemini 項目的起源來看,其實源於我當時的一個觀察:在 Google 內部,我們在大語言模型規模化方面已經積累了很多優秀成果;在 Google Brain(當時屬於 Google Research)也在推進多模態模型;與此同時,Oriol 在原 DeepMind 團隊中也在做相關工作。但問題在於,這些非常優秀的人才和研究工作是分散的,算力資源同樣是分散的。我認為,如果我們能真正整合力量,作為一個統一的團隊協作,會好得多。這就是 Gemini 團隊和項目的起點——發生在 Gemini 1.0 發佈之前不久。此後,看到模型一代代演進非常有意思:Gemini 1.5、2.0、2.5,再到幾周前發佈的 Gemini 3 Pro,以及本周發佈的 Gemini 3 Flash。我們對此都非常興奮。當然,我們也必須學會如何跨越海洋、跨越多個地點協作,這本身就是一個學習過程。但我認為我們現在已經真正進入了狀態。大約從一年前的 2.5 系列開始,到現在的 3 系列,我們明顯找到了節奏。Logan Kilpatrick我非常喜歡這一點。看到 Brain、DeepMind、Google Research 的人才真正融合在一起,並且取得如此快的進展,確實非常酷。Oriol,我也很好奇你從自己的視角怎麼看這個問題,尤其是從歷史上看,Brain 和 DeepMind 在研究方法上的差異。我個人在看《The Thinking Game》這部紀錄片時,一個非常強烈的感受是:DeepMind 在十年前解決的問題,以及後來 AlphaFold 面對的問題,和我們今天在 Gemini 上遇到的挑戰,其實非常相似。其中讓我印象最深的是資料問題:比如人類真實標註的蛋白質折疊資料非常稀缺,團隊必須通過各種方式“合成性地放巨量資料規模”。我很好奇,這種思路與你們今天所處的 RL、“測試時計算”範式之間,有多少相似性?你覺得當年那些問題和今天這個階段之間,有多大的連續性?Oriol Vinyals我可能先從一個更宏觀的角度來回答。在組織層面,我其實非常幸運:很多年前我在 Brain 團隊工作,後來我搬到倫敦,加入了 DeepMind。所以我親身經歷了這兩種研究文化在早期的差異。當然,正是我和 Jeff 之間的聯絡,最終也幫助我們啟動了 Gemini 項目,把這兩個團隊再次結合起來。從研究方式上看,尤其是 DeepMind 的早期文化,有一個非常鮮明的特點:明確的長期目標、宏大的願景,以及“不解決問題就不罷休”的項目周期。這種精神其實深刻地體現在 Gemini 的起點上——Gemini 的目標是建構 AGI,是“解決智能”這個問題,我們是為長期而來。3.0 很棒,但它並不是終點。當然,Brain 也有大量類似的長期項目,同時帶來了對神經網路架構、訓練方法等方面的多樣化探索和創新。這些基因同樣進入了 Gemini。所以可以說,這兩個組織的 DNA 在 Gemini 中完成了融合。而在方法論上,正如我們今天看到的那樣,無論是資料驅動的無監督/預訓練,還是強化學習(RL),依然是未來模型持續創新的“綠地”。回頭看一些早期項目,當時外界並不總是理解我們在做什麼,尤其是我們研究打電子遊戲的那段時間。但我們的目標始終是:開發能夠更廣泛泛化的演算法。事實上,很多當年開發的演算法,現在都可以直接應用在大語言模型上。當時這點對我們來說是顯而易見的,但對外界並不明顯。比如 AlphaFold 中使用的蒸餾、強化學習加監督式自舉(就像 AlphaGo 那樣),這些方法與今天在大語言模型中的做法是高度一致的。這些技術在不斷被發現、打磨、改進,而每一輪迭代都會帶來新的提升。我認為,從 2.5 到 3.0 的躍遷,無論是在預訓練還是後訓練上,都疊加了大量這樣的改進,最終形成了一次相當顯著的提升。Logan Kilpatrick我非常喜歡這個說法。我之後可能還會再提到這一點。順便說一句,我記得之前看到過一個 meme,不知道是 Jeff 還是 Oriol 發的,大概意思是:“是該擴展預訓練,還是擴展後訓練?”然後答案是同時狂按兩個按鈕。這個 meme 是誰的功勞?Jeff Dean我覺得是 Oriol 吧?Oriol Vinyals我好像聽說過這個說法,但 meme 不是我做的。不過感謝 whoever 發了那個 meme,我其實沒看到。Jeff Dean真正的“秘密”就是:更好的預訓練,加上更好的後訓練。Oriol Vinyals對,這就是秘密。非常“機密”的秘密。Noam Shazeer我覺得有趣的一點在於:雖然我們只有一個統一的目標,但這是一個可以從非常多正交方向持續取得進展的問題。正如 Oriol 提到的,“加強預訓練”“加強後訓練”只是其中兩個按鈕。實際上還有很多這樣的按鈕,每一個都能從不同維度提升模型效果。這恰恰非常適合一個擁有數百、上千名工程師和研究員的大型組織。你可能會覺得這麼多人一起工作一定會一團亂麻,但事實證明,如果問題本身可以被拆解為多個正交方向,那麼在十個方向上各取得一點突破,疊加起來就會產生巨大進展。這正是 Google Brain 自下而上研究方式的優勢,而它也與 DeepMind 更加聚焦長期目標的方式形成了非常好的互補。如何看待產品與模型的關係Logan Kilpatrick最近我在和一些人討論一個問題,Corey 也從某種角度提到過——我這裡用自己的方式轉述,不代表他的原話:產品本身是否也是一種“規模化機制”?我們可以擴展模型規模、擴展預訓練和後訓練、使用測試時計算等等。但現在你會看到,很多評測開始引入“帶工具的 benchmark”“帶 agent harness 的 benchmark”。我很好奇你們怎麼看待“產品”在其中扮演的角色:它是否能反過來幫助提升模型本身的能力和互動閉環?這是不是你們正在思考的方向?Noam Shazeer我認為這非常有價值。我很喜歡在 Google 這樣的全端公司工作,從底層 AI 技術,一直到服務數十億使用者。產品不僅能為訓練提供資料和反饋,也能極大提升團隊的動力。看到自己做的東西正在被真實使用者使用,這本身就非常有意義。Jeff Dean我補充一點:當你的工作被大量使用者使用時,這對人是極其有激勵作用的。這可以是直接的,比如 Gemini App;也可以是間接的,比如 Gemini API,被開發者使用,或者嵌入到各種 Google 產品中。這正是我當初進入軟體工程領域的原因之一,看到自己的工作被使用,是非常快樂的事情。少數人做出的成果,可以讓數百萬、數千萬,甚至數十億人受益。這是軟體行業非常獨特、其他職業很難擁有的體驗。Oriol Vinyals我從稍微不同的角度補充一下。我們三個人本質上都是深度學習研究者,但你永遠無法繞開真實世界。歷史上有無數例子:正是因為真實世界的需求,我們才不得不發明新的技術。比如在圖像識別早期,我們發現圖像並不會總是居中,於是需要設計能夠處理這種情況的模型。又比如文字是變長的,你無法直接把摺積網路套在可變長度的文字上,於是我們發展了循環網路、再到 Transformer。今天也是一樣。如果使用者希望和聊天模型進行跨越多年的長期互動,那我們就必須從研究層面正面解決這個問題。所以現實世界的需求本身,也在強迫我們不斷創新。當然,這也與動力、影響力密切相關,我們做的事情確實重要,這讓我們保持腳踏實地。Jeff Dean我再補充一點。除了關注“誰在用你的產品”,在一家全端公司裡,另一個巨大優勢是:我們會非常深入地思考訓練模型所依賴的基礎設施。我們已經建構自己的 AI 加速晶片 TPU 超過十年了。這對兩件事至關重要:一是讓深度學習模型可以部署到更多產品場景中;二是支援模型訓練規模的持續擴展。早在 2012 年左右 Brain 團隊成立初期,我們主要使用資料中心裡的 CPU 訓練模型。當時我們就訓練出了一個規模是此前最大模型 50 倍的神經網路,在視覺和語音任務上都取得了驚人的效果。但我們也很快意識到:如果要把這些模型服務給大量使用者,僅靠當時的 CPU 或 GPU 是不夠的,這直接促成了 TPU 項目的誕生。此後,我們持續迭代 TPU,使其能夠很好地支撐 Gemini 的大規模訓練和推理服務。目前最大的突破空間在後訓練Logan Kilpatrick是的,我們現在真的是怎麼都不夠用 TPU,這確實是一個非常現實的瓶頸。我不太清楚“Gemini 聯合技術負責人”這個職位的精確崗位說明是什麼,但我猜,對你們三位來說,工作中至少有一部分是要決定:下一步的關鍵技術下注點在那裡,我們要朝那些方向走。Demis 多次提到過這樣一個觀點,我相信也有不少人認同:要真正走向 AGI,可能一定需要某種架構層面或模型層面的根本性突破,而不僅僅是持續的工程創新。當然,我們也看到,每一次模型發佈本身就包含了大量創新。比如如果你單看 Gemini 3 Flash 和 3 Pro,就會發現這並不是第一次被提到,Flash 在後訓練配方上有一系列創新,使得它在某些基準上,儘管模型更小,但進步幅度甚至超過了 3 Pro。所以我很好奇,你們是如何看待這種張力的:一方面,短期和中期存在一個極其豐富的改進空間;另一方面,我們是否需要為未來做出一些“根本性”的新下注,去爭取真正通向 AGI 的突破?還是說,其實我們可以沿著現有範式繼續推進,只要不斷踏實地做創新,就足夠了?不知道這個問題是否引起你們的共鳴,誰願意先來回答?Oriol Vinyals我先來吧。Logan KilpatrickOriol,也許你可以順便解釋一下你常說的“drastic research(激進式研究)”是什麼意思。Oriol Vinyals好的。關於“drastic research”這個詞,其實挺有意思的,甚至有點“署名歸屬不清”。這是我和 Ilya 在 Brain 時代的一次討論,他說是我發明的,因為我當時說“這是一個非常 drastic 的想法”,但我記得這個詞是他先用的。總之不重要。它的意思其實很簡單:不是只做增量式思考,而是更超前地思考——真正需要發生什麼,才能帶來質變。當然話說回來,當一支非常強的團隊把大量增量改進做到極致時,這些改進是會疊加成巨大進步的。Gemini 就是一個例子,但對我來說更“極端”的例子其實是 AlphaFold。那個項目多年裡幾乎沒有發論文,而是持續打磨架構、訓練配方和每一個細節,始終圍繞著一個大目標前進。回頭看,AlphaFold 的成功其實是大量技巧和“深度學習工程細節”的積累,並不一定依賴某個突然出現的、極端顛覆性的技術。Transformer 當時已經存在,本身就是一個非常強的架構。當然,Noam 可以更詳細地講 Transformer。至於 AGI 到底需要什麼,我認為嚴格地不斷完善現有配方,也有可能就已經足夠。資料是存在的,潛力也在那裡。但與此同時,我們也不能排除未來會出現真正的“巨大躍遷”。我個人的判斷是:當前階段,最大的突破空間很可能在後訓練。當然,我們三個人的看法未必完全一致。不過,作為一個大型公司和大型項目,我們可以同時在多個方向下注,這本身也是我們的優勢。最後,關於“技術負責人”這個角色,我想補充一點:我們很大一部分工作,其實是篩選。團隊裡每個人都非常聰明、非常有創造力。很多時候,我們並不是提出想法的人,而是判斷那些想法最有前景。並不是“我們提出所有想法,別人來執行”,而恰恰相反。我想澄清這一點,給可能對我們日常工作有不同想像的朋友。我提名 Noam 接著講。Noam Shazeer謝謝 Oriol。確實,這是一個非常複雜的組合問題。有大的突破,也有小的突破。關鍵在於:它們可以正交疊加,而且不會引入過多技術複雜性,這樣我們才能不斷繼續往上疊。你可以粗略地想像:也許一個“大突破”能給模型增加 1 個 IQ 點;一個“小突破”只能增加 0.1 個 IQ 點。但只要我們持續把這些疊加起來,進展就會非常巨大。至於下一個“超級大突破”會不會出現?老實說,我覺得是 50/50。但我們確實在很多方向上都看到了大量創新:後訓練是重點,但預訓練、模型架構、資料、下游應用等方向也都在持續推進。Jeff Dean我認為,保持一個風險組合非常重要。一部分是更長期、更高風險、可能成功也可能失敗的想法;另一部分是希望能進入下一代 Gemini 模型的、相對短期但同樣重要的工作。後者往往理解得更清楚,需要通過實驗進一步驗證,它們也許只能帶來 1 分或 0.1 分的提升。但當你把很多這樣的改進疊加起來,就能實現代際飛躍。與此同時,我們也必須持續押注那些可能徹底改變現有範式的新方法。在 Gemini 項目啟動之前,大概在 2018 年左右,我們開始意識到:為不同任務分別訓練一大堆模型,可能並不是正確的方向。於是我發起了 Pathways 項目,其核心目標是:一個模型,能泛化到數百萬個任務能處理多模態輸入和輸出模型不是完全稠密的,而是稀疏啟動的圍繞這三個目標,我們不僅在模型上做探索,也搭建了底層的軟體基礎設施,以支援這種“稀疏、啟動方式很奇怪”的模型規模化訓練。實際上,今天 Gemini 使用的正是 Pathways 這套基礎設施。這三個目標,今天基本已經在 Gemini 的多個版本中實現了:一個模型可以做數百萬件事,強多模態,並且在最新版本中大量採用稀疏啟動。所以,設定五年期目標,然後一步步朝它們推進是非常有價值的。不是五年什麼都不做,而是沿途不斷取得階段性成果。現在,我們腦子裡也已經有了關於未來五年的類似藍圖:下一步模型能力該如何演進。程式碼、推理和數學已經被“擊穿”,下一步是開放式任務Logan Kilpatrick太棒了。Jeff,也許我們可以線下聊聊,把“未來五年的完整清單”拿出來看看。Noam 和 Jeff 都提到了一個點:模型能力在很多維度上都在持續提升,可能是某個評測的一兩個百分點,也可能是更細微的改進。但與此同時,我們也看到某些領域在 6 到 12 個月內被迅速“吃穿”了。比如程式碼、推理、數學。年初時,“Humanity’s Last Exam(HLE)”這種 benchmark,最強模型的得分還是個位數百分比;現在已經出現了 50% 以上的模型。程式碼領域的 AIM benchmark 幾乎已經被刷到接近 100%。我很好奇:你們覺得這種趨勢會持續嗎?還是說,程式碼、推理、數學這些領域,本身就有某些特性,使得進展會特別快,而其他領域(比如生物學)就沒那麼容易?Noam Shazeer我先說說程式碼吧。我覺得大家已經意識到程式碼領域極其有價值。可能我們作為工程師有點“近視”,因為它直接幫助了我們自己。但說實話,我本人就非常感謝 Gemini 在加速我的程式設計工作。而且這不僅是“我們覺得有用”,而是程式碼能力可以被用於建構極其高價值的東西,比如繼續建構 AI 本身。Jeff Dean我再補充一個關於數學的例子。兩年前,模型在 GSM8K(中學數學題)上都表現得很吃力,比如:“Fred 有 5 隻兔子,從兩個朋友那裡各拿到 1 隻,現在有幾隻?”而現在,我們已經有模型能在 IMO(國際數學奧林匹克)這種難度極高的競賽中拿到金牌。這充分說明:後訓練和強化學習在可驗證領域(如數學和程式碼)裡非常有效。原因在於:在這些領域,我們可以生成候選答案,並且明確地驗證對錯。數學可以用定理證明,程式碼可以運行、編譯、跑單元測試。而真正的挑戰在於那些“模糊領域”:比如生物問題,或者“幫我規劃一次舊金山旅行”這種開放式任務。這些問題沒有清晰的獎勵函數或對錯判斷。我認為,未來幾年一個重要方向就是:如何讓這些開放式領域的進展,像數學和程式碼一樣快。Flash版本:相比智能,速度快也很重要Logan Kilpatrick這也讓我聯想到當前的 Flash 時刻。顯然,蒸餾已經非常成功。我們有一個極其強大的“教師模型”,然後把能力蒸餾到 Flash 這樣的更小模型中。Oriol,我很好奇你怎麼看這個問題:在速度、效率、成本和智能之間做權衡時,我們的心智模型是不是Pro 模型完全不做妥協,反正以後可以再蒸餾?在多條研究主線平行的情況下,Pro 的決策是否最終決定了 Flash 能達到的上限?比如現在的 Gemini 3 Flash。Oriol Vinyals這是一個非常好的問題。回到 Gemini 項目最初的設計,Jeff 可能還記得最早的那些幻燈片:從一開始我們就明確,Gemini 會同時有兩個運行點:一個是:最大智能,不做任何妥協另一個是:更強可部署性,但不追求絕對前沿智能這種劃分方式非常有幫助,而且我認為短期內不需要改變。但現實發生的事情是:一代一代下來,新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。也就是說,在固定模型規模或延遲條件下,智能水平在持續上升。當然,在最大規模下,Pro 仍然會在某些 Flash 難以觸及的能力上保持領先。這最終變成了一個使用者問題:你到底需要什麼?很多使用者可能會選擇 Pro,因為他們不想每次都猜“這個問題 Flash 行不行”。與此同時,我們也把蒸餾這件事做得非常成熟了。我和 Jeff 經常提醒大家,這其實是一篇當年被拒稿的論文,但它一次次證明了自己的價值。我認為,兩種模型之間的差距不一定會變成 0,但很可能會小到一個程度:Pro 的主要作用,就是用來“生成”Flash。當然,我們可能仍然希望把 Pro 直接交給某些使用者。但從長期來看,能以最低成本提供前沿智能,是一個非常理想的狀態。老實說,隨著 Gemini 3.0 的進展,我們已經離這個目標非常接近了。這真的非常令人興奮。Jeff Dean我補充一點。我們也在做端側模型,比如用於 Pixel 手機等裝置的模型,這類場景會有額外的約束,比如記憶體規模等。我認為延遲作為模型質量指標被嚴重低估了。能夠在極低延遲下,依然具備很強推理能力、可以處理複雜問題的系統,是非常非常重要的。延遲可以從不同層面來最佳化:一方面是模型層面的最佳化,通過架構設計讓模型天然更快;另一方面是硬體層面的決策,讓某些模型在未來的硬體平台上運行得特別高效。延遲和推理階段算力的另一個關鍵意義在於:它讓你可以在固定的延遲預算內,把模型“變得更聰明”。如果模型本身快 5 倍,你可以選擇:直接快 5 倍給出答案;或者讓模型“多思考一會兒”,得到更好的答案,同時仍然比原來快 2.5 倍。如果你有非常強大的硬體,再配合通過蒸餾得到的、輕量但能力依然很強的模型,這是一個必須持續投入的重要方向。Noam Shazeer我想補充一點。如果我們真的能做到這樣,其實是一種非常理想的工作方式:在訓練 Pro 模型 時,儘量不去在意推理性能,專注於智能本身;然後在 Flash 模型 上,重點最佳化延遲、成本和吞吐量。這讓我想起我大學時的一位電腦教授,杜克大學的 Owen Astrachan。他常說一句話:“先讓它跑起來(make it run),再讓它正確(make it right),然後讓它快(make it fast),最後讓它小(make it small)。”這基本就是軟體開發和偵錯的順序。而現在在模型上似乎發生了類似的事情:先讓模型能跑、再讓它聰明、再讓它快、再讓它便宜。看起來,很多“老智慧”仍然在發揮作用。Jeff Dean我很喜歡這個說法。確實,不同的使用場景需求差異很大:有些場景追求絕對最好的質量,並不太在意延遲;還有很多場景需要更快、更便宜的模型,用於高頻、規模化的使用。這正是我們常說的帕累托前沿:我們希望給使用者提供多個選擇。理想情況下,使用者最好不用太糾結:“這個請求我該用 Pro,還是 Flash?”但同時,提供一個連續的選擇區間,我認為是非常有價值的。Logan Kilpatrick完全同意。我可以分享一個具體例子:我們在 AI Studio 裡針對 vibe coding 這個用例,悄悄做了一些 Flash 模型和 Pro 模型的對比測試。結果很明顯:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。我昨晚還看到一條評論,有人說自己以前一直是“永遠用最聰明的模型、願意等待”的那一派,這點也呼應了你剛才的觀點,Oriol。但在用了 Gemini 3 Flash 之後,他重新評估了這個立場,因為迭代速度實在太快了,在很多情況下,那怕犧牲一點點智能也是值得的。Jeff Dean是的。其實在 Google 非常早期的時候,我們就極度重視搜尋結果頁面的響應速度,因為我們知道:低延遲是一種極其令人愉悅的使用者體驗。搜尋越快,人們就會搜得越多。Oriol Vinyals還有一個很直觀的現實是:我們依然處在人類在環(human-in-the-loop)的階段,所以我們並不會對等待和延遲免疫。另一個非常令人興奮、而且即將到來的應用場景是機器人。在機器人領域,你需要模型去控制和操作真實世界的裝置,這裡有物理層面的硬約束。我非常確信,對小而強模型的投入只會持續增加。我們對目前的進展本身也感到非常興奮。模型並不缺“聰明”,缺的是“持續學習”Logan Kilpatrick回到我們之前關於“面向未來的技術賭注”的討論,最近大家也談了很多自我改進、持續學習之類的話題。在不洩露任何“秘方”的前提下,我很好奇:這些方向在 Gemini 裡更多是偏研究探索,還是已經開始進入產品或工程視野?目前整個領域大概處在一個怎樣的成熟度區間?Oriol,你怎麼看?Oriol Vinyals這是一個非常“老派深度學習者”的問題。從歷史上看,神經網路的發展中,有些地方一直讓我覺得不夠優雅、也不夠合理。比如課程學習,我們現在是把各種難度的資料混在一個 batch 裡訓練模型,而人類學習通常是先學簡單的,再學困難的。這是一個我們做過一點、但遠遠不夠的方向。另一個多年來一直困擾我的問題是:我們訓練完模型、凍結權重、然後部署,部署後就再也不學習了。AlphaFold 不會從使用者那裡學習,AlphaGo 也不會從自己下過的棋局中繼續學習。至少在權重層面,這些系統在部署後是“靜態的”。這些顯然都是非常深層次、非常重要的改進方向。隨著我們逐漸接近 AGI,你會自然期待持續學習、情境學習這類能力出現。舉個例子,Demis 很喜歡和模型下棋。模型其實應該意識到:“我下得還不夠好。”然後它應該自己花一周時間專門學習國際象棋,再回來對 Demis 說:“我準備好了。”然後擊敗他。這裡有大量令人興奮、同時也是經典的開放問題。這說明它們不會容易,但我相信我們會做到。Jeff Dean順著持續學習這個話題說一句,其實預訓練本身就有點“反直覺”,至少和人類學習方式相比是這樣。現在的做法是:我們隨機初始化一個模型,把它“綁在板子上”,然後把海量文字、圖片、視訊流式地灌給它。最後再說:“好了,你現在可以開始在世界裡行動,學數學、學程式設計了。”這種方式下,每個 token 所包含的資訊密度其實很低。如果模型能在環境中採取行動、觀察後果、主動決定下一步關注什麼:比如它想學棋,就主動去讀棋譜;想學微積分,就去找相關內容——那會更像人類的學習過程。這是一條非常值得作為長期技術賭注去探索的方向。Noam Shazeer我並不是要否定“大規模流式訓練”。我們不僅僅是在把資料流過模型,而是讓模型對每一個 token 都做下一詞預測,而且規模是兆級 token。一個人一生可能只接觸到十億等級的語言 token,但通過預測別人接下來要說什麼,人類確實能學到很多東西。我們給模型提供的資料量是人類的成千上萬倍,這當然極其有價值。但我也同意 Jeff 的觀點:如果我們能把大量計算資源集中投入到最重要、最有價值的方向,無論是治癒癌症、建構程式設計智能體,還是其他重大問題,那會非常有意義。這也是為什麼我贊同 Oriol 的判斷:未來很多大的進展,很可能來自後訓練階段。Logan Kilpatrick我很喜歡這個結論,感覺我們兩種方式都需要。某種程度上,人類本身就“繼承”了進化過程中形成的生物學先驗,而大規模 token 流式訓練,可能只是一個很粗糙的代理。Jeff Dean是的。正如 Noam 說的,大規模流式訓練已經被證明非常有效,我完全不想否定它。但另一方面,人類一生看到的 token 數量遠少於模型,卻能達到很高的能力水平。這說明,可能存在一種比現在高 1000 倍甚至 10000 倍的資料效率學習方式。我認為關鍵在於:人類會思考行動的後果、觀察反饋,這種方式更偏向強化學習,而不僅僅是預測下一個 token。總結:多模態進展、超長上下文、通用模型能力提升Logan Kilpatrick太棒了。我們時間差不多了,最後想問一圈:回顧 Gemini 過去兩年的發展,有沒有那些出乎意料的地方?不管是進展比預期快的,還是慢的,或者某些意想不到的結果。Jeff Dean整體來看,最讓我欣喜的是多個方向同時取得進展。視訊和圖像生成能力的提升尤其明顯,而且它們越來越多地和主模型融合在一起,讓模型可以進行視覺推理。你可以看到生成結果,然後說:“不對,我想要的是這個圖像的一個小改動。”這種互動非常自然。另一個我認為被低估的能力是超長上下文。當你把大量資料放進上下文窗口時,這些資訊對模型來說是非常“清晰”的,它們以 KV cache 的形式存在。相比之下,訓練資料已經被“攪拌”進數十億參數中,對模型來說是模糊的。我覺得長上下文能力還遠沒有被充分利用。我們正在探索的一條方向是:如何讓使用者感覺自己彷彿擁有對數十億甚至兆 token 的注意力能力,就像把大半個網際網路、海量視訊放進了上下文窗口裡。Oriol Vinyals對我來說,最意外的是:我們曾經有一個專門做競賽程式設計的項目 AlphaCode,是高度特化的系統。但現在,用通用模型,我們卻在數學和程式設計競賽中拿到了金牌,而且沒有為這些領域做特別定製。這一點非常讓我驚訝。我當時反覆提醒團隊:這必須是模型本身的能力,而不是某個臨時分支、達成目標後就丟掉的東西。結果他們真的做到了。這可能是過去幾年裡最“激進”的驚喜。Noam Shazeer從理性上說,我並不完全驚訝——早在 2018、2020 年,就能預見模型會越來越聰明。但從情感上說,看到這一切真的發生了,還是非常震撼。你現在可以直接跟模型對話,讓它幫你算數學、寫程式碼,而且有成百上千萬的人對 AI 感到興奮。這真的非常有趣,我也非常期待接下來會發生的事情,希望它能給世界帶來更多正向影響。Logan Kilpatrick太完美的結尾了。Jeff、Oriol、Noam,非常感謝你們抽時間參與。也感謝大家的收聽,希望你們喜歡新的 Gemini 模型。如果有問題或反饋,隨時聯絡我們。我們會繼續“推石頭上山”,給大家帶來更好的模型和產品。希望明年初還能和大家一起迎來更多有趣的發佈。 (51CTO技術堆疊)
Gemini 3 Flash 可能是 Google 最狠的一步棋
剛剛Google正式推出了Gemini 3 Flash,這可能是 Google 這幾年最重要的一次模型發佈如果只看名字,Gemini 3 Flash 很容易被誤解成一個閹割版,快但不聰明的模型。但實際情況恰恰相反——它可能是 Google 到目前為止,戰略意義最大的一次模型選擇一句話先給結論:Gemini 3 Flash =前沿大模型智商 + 閃電級速度 + 超低成本的組合拳。它不是縮水版,而是把快和強第一次真正合在了一起不知道Google是怎麼訓練的,在複雜推理測試ARC-AGI-2和衡量真實程式設計能力測試SWE-bench Verified 基準中,Gemini 3 Flash都超過了Gemini 3 pro過去兩年,大模型世界裡一直有一道隱形分界線:一邊是能力最強、但又慢又貴的旗艦模型,另一邊是響應快、成本低,但明顯沒那麼聰明的輕量模型Gemini 3 Flash 做的事情,就是把這條分界線直接抹掉了它在多個博士級推理和多模態基準上,已經逼近甚至追平 Gemini 3 Pro 這樣的重型選手,卻同時保留了 Flash 系列最核心的特性——極低延遲和極高吞吐。更關鍵的是,在真實使用場景中,它平均比上一代 2.5 Pro 少用 30% 的 token,卻把正確率做得更高這件事對開發者的衝擊尤其明顯在 Agent、自動程式設計、高頻互動系統裡,真正的瓶頸從來不是模型能不能想明白,而是想明白要不要等三秒。Gemini 3 Flash 在 SWE-bench 這類面向程式碼 Agent 的評測中,甚至跑贏了 Gemini 3 Pro,本質原因只有一個:它足夠聰明,同時也足夠快,快到可以被反覆呼叫而當這種能力開始變便宜,事情的性質就變了Gemini 3 Flash 的定價已經低到一個明確的訊號:它不是拿來偶爾用一次的,而是拿來當基礎設施用的Google 直接把它設成了 Gemini App 的默認模型,全球使用者免費使用;同時,它也開始成為搜尋裡 AI Mode 的核心大腦。你在搜尋裡問一個複雜問題,它不只是給你答案,而是能拆解問題結構、結合即時資訊,再給你一個可以立刻行動的方案,而這一切幾乎和傳統搜尋一樣快這一步,其實比參數更重要如果說前兩年的競爭重點是誰的模型更像人類博士,那麼 Gemini 3 Flash 代表的,是下一階段的方向,誰能讓這種水平的智能,真正跑在每一次點選、每一次呼叫、每一次搜尋裡從這個角度看,Gemini 3 Flash 並不是一個Flash 模型,而是 Google 對 AI 規模化落地的一次明確表態:智能本身已經不是稀缺資源了,稀缺的是能被高頻使用的智能不得說GoogleTPU+強悍的研發能力已經成為事實上領先者了,Sam 昨天緊急推出的圖像模型追Nano Banana Pro,接下里要追的可能就多了,這在幾個月前甚至都不能想像 (AI寒武紀)
Google甩出“價格屠夫”!Gemini 3 Flash超Pro,成本僅1/4,速度如“閃電”
多領域性能比肩Pro模型。昨晚,Google發佈了Gemini 3 Flash,旨在用更低的成本提供前沿的智能水平。具體來看,它輸出每百萬token的價格僅為Claude Sonnet 4.5的20%、GPT-5.2的21%,卻能在基準測試上達到甚至超越這些旗艦級模型的水平。即便是和Gemini 3 Pro相比,Gemini 3 Flash也極具性價比。Flash的價格僅為Pro的25%,卻在MMMU-Pro、SWE-bench Verified這些核心基準測試上,超過了Pro版本的模型。此前發佈的Gemini 3系列模型在複雜推理、多模態和視覺理解、智能體及Vibe Coding任務方面都展現出優勢,Gemini 3 Flash保留了這一基礎,將Gemini 3 Pro等級的推理能力與Flash等級的延遲、效率和成本相結合。Google首席科學家Jeff Dean稱,Gemini 3 Flash不僅比2.5 Pro質量更高,速度也快3倍,而且價格僅為後者的幾分之一。以下是並排演示:Gemini 3 Flash目前已經全面開放,開發者可通過Google AI Studio中的Gemini API、Gemini CLI以及智能體開發平台Google Antigravity使用。而普通使用者能通過Gemini應用程式和Google搜尋中的AI模式使用。01.專為迭代式開發打造還幫你“用嘴程式設計”Gemini 3 Flash究竟能做什麼?Google稱,這是一款專為迭代式開發打造的模型,能夠以低延遲提供接近Gemini 3 Pro等級的程式設計性能。Google分享了多個案例。比如,Gemini 3 Flash可以在一個手部追蹤的“彈球解謎遊戲”中實現多模態推理,提供近乎即時的AI輔助。它還可以近乎即時地建構和A/B測試新的載入動畫設計,簡化了從設計到程式碼的流程。使用多模態推理,Gemini 3 Flash可快速分析帶有上下文UI覆蓋層的圖像,並生成字幕,最終將靜態圖像轉化為互動式體驗。憑藉在推理、工具使用和多模態能力方面的出色表現,Gemini 3 Flash 特別適合希望進行更複雜視訊分析、資料提取和視覺問答的開發者。Gemini 3 Flash的多模態推理能力可用於幫助使用者看、聽和理解任何類型的資訊。使用者可以要求Gemini理解視訊和圖像,並在幾秒鐘內將該內容轉化為有幫助且可操作的計畫。Gemini應用程式中的Gemini 3 Flash可以分析短影片內容並給你一個計畫,比如如何改進你的高爾夫揮杆。由於Gemini 3 Flash針對速度進行了最佳化,它可以在你仍在繪圖時就“看到”並猜出你畫的是什麼。你可以上傳一段錄音,Gemini 3 Flash將識別你的知識盲點,建立一個自訂測驗,並對答案給出詳細解釋。或者,也可以嘗試“用嘴程式設計”,僅用語音輸入從零開始建構有趣、有用的應用程式。Gemini 3 Flash可以在幾分鐘內將非結構化的想法轉化為一個功能正常的應用程式。02.多領域性能超越Pro級模型可自動調節思考量Gemini 3 Flash在基準測試上表現如何?它在GPQA Diamond(90.4%)和Humanity's Last Exam(不使用工具時為33.7%)等博士級推理和知識基準測試中,可與更大的前沿模型相媲美,並且在多項基準測試中顯著優於Gemini 2.5 Pro。在評估編碼智能體能力的基準測試SWE-bench Verified中,Gemini 3 Flash取得78%的成績,不僅超越了2.5系列,也超過了Gemini 3 Pro。它還在MMMU Pro上達到了81.2%的分數,與Gemini 3 Pro相當,實現了最先進的性能。在下圖中展示的基準測試中,Gemini 3 Flash在幾乎所有基準測試上都超過了Claude Sonnet 4.5、Gemini 2.5 Pro等模型。除了前沿等級的推理和多模態能力外,Gemini 3 Flash的建構旨在實現高效率,推動了質量與成本、速度之間的帕累托邊界。下方散點圖顯示了多個語言模型的LMArena Elo得分與每百萬tokens價格的關係,其中一條線標出了穿過Gemini 3 Pro、Gemini 3 Flash和Gemini 3 Flash Lite的帕累托邊界。在思考預算拉滿時,Gemini 3 Flash能夠調節其思考量。對於更複雜的用例,它可能會思考更長時間。但根據典型流量測量,在以更高的性能精準完成日常任務的前提下,它平均比2.5 Pro少使用30%的tokens。03.結語:Gemini 3模型版圖補全有望深度嵌入日常應用Gemini 3系列模型自發佈以來就廣受好評,不過其高昂的成本讓不少使用者望而卻步。Gemini 3 Flash補全了Gemini 3家族在輕量化、高性價比方面的佈局,回應了開發者在真實生產環境裡的訴求。從迭代式開發、Vibe Coding,到多模態應用、即時互動和智能體系統,Gemini 3 Flash所展現的更高性價比,有望幫助智能更廣泛地嵌入日常應用和商業系統之中。 (智東西)
Google殺瘋了!Gemini 3 Flash 突襲:這個跑腿小弟差點打敗了 GPT-5.2
一個月前,Google發佈了最新的 Gemini,從此我們進入了 Gemini 3 的時代。那以後, Gemini 3 Pro 就成了我幹活的主力。但說實話,它反應是真慢,而且很多時候我只是問些簡單問題,完全沒必要深度思考。所以,一直期待速度飛快的 Flash 系列重新回來。終於,在今天,Gemini 3 Flash 來了!圖:Google CEO 宣佈 Gemini 3 Flash 發佈Google這一波操作屬實把我驚到了。官方號稱它“比快更快”,而且智商不減反增。本來是一個“小弟”人設,但你看看它排名,居然僅次於OpenAI 最新的模型 GPT 5.2了。(就差 2 分)真讓人情何以堪吶?圖:第三方機構評測 Gemini 3 Flash 的綜合指標廢話不多說,咱們趕緊來扒一扒,這個新出的 Flash 到底香不香。01 到底是個啥?簡單來說:把 Pro 的腦子,裝進了 Flash 的身體裡。以前我們對“Flash(輕量級)”模型的印象是什麼?跑得快,便宜,但是……有點“笨”。處理複雜任務時經常翻車。但這次 Gemini 3 Flash 徹底打破了這個刻板印象。遇到閒聊、簡單查詢: 它就輕裝上陣,秒回,省流又省錢;遇到燒腦難題: 它能立馬調動深層算力,像老教授一樣深思熟慮。它大腦似乎有個變速箱。它甚至在性能、成本和速度方面突破了帕累托極限。(AI 界的性價比極限)圖:Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限官方資料顯示,它的 Token 消耗比 Gemini 2.5 Pro 少了 30%,但智商卻線上。說人話就是:多快好省!圖:Token 消耗率對比這種“該省省,該花花”的 AI,誰不愛?02 憑資料說話:這波“以下犯上”有點狠咱們不整那些虛頭巴腦的形容詞,直接看跑分資料,Google這次是真的下了血本。我看了一眼實測資料,甚至有點不敢相信:它在很多任務上接近自家最強的模型 3 Pro,甚至有些指標還幹掉了Pro 版。(這樣禮貌嗎?)特別是那個讓無數 AI 汗流浹背的 ARC-AGI-2 測試……還讓人意想不到的是:Gemini 3 Flash 全面碾壓了上一代的旗艦版本 2.5 Pro。(前浪死在沙灘上)圖: Gemini 3 Flash 的各項指標先說說這個 ARC-AGI-2。之前 GPT 5.2 發佈讓大家印象深刻,其中有一個原因就是這個指標碾壓所有模型。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一, 主要測試模型到底有沒有腦子。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC-AGI 2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。這項指標 Flash 竟然超過了自己的 Pro 大哥,僅次於 GPT-5.2!這個小弟,要造反了有點腦子!在另一項指標: GPQA Diamond(研究生等級的專家推理測試)裡,它拿了 90.4 分。意思就是智商堪比博士。看這個數字,它的推理能力已經和那些大塊頭的前沿模型(Pro 版)平起平坐了。在著名的“Humanity's Last Exam(人類最後一場考試)”這種地獄級難度的測試裡,Gemini 3 Flash 居然考出了 43.5% 的高分(Tools on 模式)。圖:HLE 分數對比它跟 GPT-5.2(45.5%)這種超級旗艦模型,只差了不到 2 分!朋友們,別忘了,這可是一個 Flash 模型啊!它的定位本來是“跑腿小弟”,結果一不小心把“業界大佬”們的飯碗給砸了。(面子?不存在的。)這那裡是“輕量版”,這分明是“披著閃電俠外衣的超人”。在多模態測試(MMMU Pro)中得分 81.2%,看圖、看視訊的能力基本和 Gemini 3 Pro 五五開。也就是,眼神兒更好使。圖:MMMU-Pro 指標對比最讓我意外的是這個——在 SWE-bench Verified(程式碼智能體測試)中,它得分 78%。直接超越了 Gemini 2.5 全系,甚至在某些這就需要改程式碼的任務上,比 Gemini 3 Pro 還要好用!本來以為它動動嘴還行,沒想到寫程式碼更溜!一句話總結:它不是“丐版”,它是“精簡版戰神”。03 為什麼我建議你立馬換用 Flash?作為這一年多幾乎天天都在用 AI 的人,我覺得 Gemini 3 Flash 帶來的改變是肉眼可見的:1. 真的太快了!⚡️根據第三方測評(Artificial Analysis),它的速度是 2.5 Pro 的 3 倍。以前問 AI 一個問題,你可能還得切出去回個消息等它寫完。現在?你字剛打完,它答案就懟到你臉上了。這種“跟手”的感覺,對於我們需要快速寫文案、改程式碼的人來說,簡直是救命。2. 價格那是相當感人 💰圖:Gemini 3 Flash 價格輸入 100 萬 Token 只要 0.5 美刀,輸出只要 3 美刀。想想看,它現在比 2.5 Pro 強太多了,但價格卻只有它的 30-40%。這基本就是白菜價了,對於開發者來說,成本焦慮直接減半。3. 智商不掉線既有速度,又有 Pro 級的推理能力。處理複雜的長文件分析、視訊理解,它完全都在行。04 怎麼用?能幹啥?好消息是,這玩意兒現在就是 Gemini 的“默認配置”。不管你是普通使用者還是開發者,現在就能上手玩。普通玩家:直接打開 Gemini App 或者 Google 搜尋,它已經在那裡等你了(是的,免費用)。我們打開 Gemini,會看到 Fast 和 Thinking 兩個新增的模型。它們就是 Gemini 3 Flash!圖:Gemini 3 Flash開發者大佬:去 Google AI Studio 或者 Vertex AI 就能調 api。因為它延遲極低,拿來做那種需要即時反饋的語音助手、視訊分析工具簡直完美。05 寫在最後至此,Gemini 3 家族算是真正“齊活”了。Pro 是全能六邊形戰士;Deep Think 是深思熟慮的掃地僧;Flash 則是身手敏捷的急先鋒。回顧這一年,不得不說Google是真聽勸,也是真拼。以前總有人吐槽大廠喜歡“擠牙膏”,但這幾次發佈,從 Pro 到 Deep Think 再到今天的 Flash(還有 Nano Banana Pro),每一次都是誠意滿滿的“硬菜”。特別是今天的 Flash,說實話,雖然在Google家裡它定位是“小弟”,但這性能、這智商,放在其他任何一家公司,高低得掛個“旗艦(Ultra/Pro)”的名號。當然,神仙打架,受益的是咱們。你們打吧,我喜歡。 (AI范兒)
Gemini 3 再次大更新!全球免費享 Pro 級智商,奧特曼又要失眠了
年底了,Google又開始沖業績了。就在剛剛,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (APPSO)